Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition interactive de requêtes

Identifieur interne : 000078 ( France/Analysis ); précédent : 000077; suivant : 000079

Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition interactive de requêtes

Auteurs : Quang Anh Bui [France] ; Muriel Visani [France] ; Rémy Mullot [France]

Source :

RBID : Hal:hal-00860706

Abstract

La recherche de mots ou de groupe de mots pour la navigation dans des collections de documents anciens numérisés est un sujet de recherche actif dans la communauté internationale. En raison en particulier de la qualité médiocre de ce type de documents et de l'utilisation d'un langage ancien ou rare, appliquer un simple OCR sur ces documents ne suffit pas, d'autant que certains alphabets ne disposent d'aucun système de reconnaissance automatique. Afin de contourner ces difficultés, nous proposons un système générique, omni-langage et interactif de recherche de mots dans des collections de documents anciens. Cette approche permet de travailler sur n'importe quelle collection de documents anciens, utilisant n'importe quel alphabet, pictogrammes ou idéogrammes. Dans ce contexte, l'utilisateur peut composer sa requête et il n'a pas besoin de maîtriser le langage ni de détecter préalablement une occurrence du mot-clé.

Url:


Affiliations:


Links toward previous steps (curation, corpus...)


Links to Exploration step

Hal:hal-00860706

Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr">Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition interactive de requêtes</title>
<author>
<name sortKey="Bui, Quang Anh" sort="Bui, Quang Anh" uniqKey="Bui Q" first="Quang Anh" last="Bui">Quang Anh Bui</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
<author>
<name sortKey="Visani, Muriel" sort="Visani, Muriel" uniqKey="Visani M" first="Muriel" last="Visani">Muriel Visani</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
<author>
<name sortKey="Mullot, Remy" sort="Mullot, Remy" uniqKey="Mullot R" first="Rémy" last="Mullot">Rémy Mullot</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">HAL</idno>
<idno type="RBID">Hal:hal-00860706</idno>
<idno type="halId">hal-00860706</idno>
<idno type="halUri">https://hal.archives-ouvertes.fr/hal-00860706</idno>
<idno type="url">https://hal.archives-ouvertes.fr/hal-00860706</idno>
<date when="2012-01-01">2012-01-01</date>
<idno type="wicri:Area/Hal/Corpus">000162</idno>
<idno type="wicri:Area/Hal/Curation">000162</idno>
<idno type="wicri:Area/Hal/Checkpoint">000070</idno>
<idno type="wicri:Area/Main/Merge">000237</idno>
<idno type="wicri:Area/Main/Curation">000233</idno>
<idno type="wicri:Area/Main/Exploration">000233</idno>
<idno type="wicri:Area/France/Extraction">000078</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr">Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition interactive de requêtes</title>
<author>
<name sortKey="Bui, Quang Anh" sort="Bui, Quang Anh" uniqKey="Bui Q" first="Quang Anh" last="Bui">Quang Anh Bui</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
<author>
<name sortKey="Visani, Muriel" sort="Visani, Muriel" uniqKey="Visani M" first="Muriel" last="Visani">Muriel Visani</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
<author>
<name sortKey="Mullot, Remy" sort="Mullot, Remy" uniqKey="Mullot R" first="Rémy" last="Mullot">Rémy Mullot</name>
<affiliation wicri:level="1">
<hal:affiliation type="researchteam" xml:id="struct-395543" status="INCOMING">
<orgName>IDDC</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
<listRelation>
<relation active="#struct-40831" type="direct"></relation>
<relation name="EA2118" active="#struct-300311" type="indirect"></relation>
</listRelation>
<tutelles>
<tutelle active="#struct-40831" type="direct">
<org type="laboratory" xml:id="struct-40831" status="VALID">
<orgName>Laboratoire Informatique, Image et Interaction</orgName>
<orgName type="acronym">L3I</orgName>
<desc>
<address>
<addrLine>Bâtiment Pascal Avenue Michel Crépeau F-17042 La Rochelle Cedex 1</addrLine>
<country key="FR"></country>
</address>
<ref type="url">http://www.univ-lr.fr/l3i</ref>
</desc>
<listRelation>
<relation name="EA2118" active="#struct-300311" type="direct"></relation>
</listRelation>
</org>
</tutelle>
<tutelle name="EA2118" active="#struct-300311" type="indirect">
<org type="institution" xml:id="struct-300311" status="VALID">
<orgName>Université de La Rochelle</orgName>
<desc>
<address>
<country key="FR"></country>
</address>
</desc>
</org>
</tutelle>
</tutelles>
</hal:affiliation>
<country>France</country>
<placeName>
<settlement type="city">La Rochelle</settlement>
<region type="region" nuts="2">Poitou-Charentes</region>
</placeName>
<orgName type="university">Université de La Rochelle</orgName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass></textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">La recherche de mots ou de groupe de mots pour la navigation dans des collections de documents anciens numérisés est un sujet de recherche actif dans la communauté internationale. En raison en particulier de la qualité médiocre de ce type de documents et de l'utilisation d'un langage ancien ou rare, appliquer un simple OCR sur ces documents ne suffit pas, d'autant que certains alphabets ne disposent d'aucun système de reconnaissance automatique. Afin de contourner ces difficultés, nous proposons un système générique, omni-langage et interactif de recherche de mots dans des collections de documents anciens. Cette approche permet de travailler sur n'importe quelle collection de documents anciens, utilisant n'importe quel alphabet, pictogrammes ou idéogrammes. Dans ce contexte, l'utilisateur peut composer sa requête et il n'a pas besoin de maîtriser le langage ni de détecter préalablement une occurrence du mot-clé.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Poitou-Charentes</li>
</region>
<settlement>
<li>La Rochelle</li>
</settlement>
<orgName>
<li>Université de La Rochelle</li>
</orgName>
</list>
<tree>
<country name="France">
<region name="Poitou-Charentes">
<name sortKey="Bui, Quang Anh" sort="Bui, Quang Anh" uniqKey="Bui Q" first="Quang Anh" last="Bui">Quang Anh Bui</name>
</region>
<name sortKey="Mullot, Remy" sort="Mullot, Remy" uniqKey="Mullot R" first="Rémy" last="Mullot">Rémy Mullot</name>
<name sortKey="Visani, Muriel" sort="Visani, Muriel" uniqKey="Visani M" first="Muriel" last="Visani">Muriel Visani</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/France/Analysis
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000078 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/France/Analysis/biblio.hfd -nk 000078 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    France
   |étape=   Analysis
   |type=    RBID
   |clé=     Hal:hal-00860706
   |texte=   Système générique et omni-langage de navigation dans des bases de documents anciens basé sur de la recherche de mots par composition interactive de requêtes
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024